Inférer des Objets Sémantiques du Web Structuré
نویسندگان
چکیده
This thesis focuses on the extraction and analysis of Web data objects, investigated from different points of view: temporal, structural, semantic. We first survey different strategies and best practices for deriving temporal aspects of Web pages, together with a more in-depth study on Web feeds for this particular purpose, and other statistics. Next, in the context of dynamically-generated Web pages by content management systems, we present two keyword-based techniques that perform article extraction from such pages. Keywords, either automatically acquired through a Tf−Idf analysis, or extracted from Web feeds, guide the process of object identification, either at the level of a single Web page (SIGFEED), or across different pages sharing the same template (FOREST). We finally present, in the context of the deep Web, a generic framework that aims at discovering the semantic model of a Web object (here, data record) by, first, using FOREST for the extraction of objects, and second, representing the implicit rdf:type similarities between the object attributes and the entity of the form as relationships that, together with the instances extracted from the objects, form a labeled graph. This graph is further aligned to an ontology like YAGO for the discovery of the unknown types and relations.
منابع مشابه
Interopérabilité sémantique libérale pour les services et les objets
Résumé. Le Web des données promeut l’utilisation de RDF comme modèle pour les données structurées sur le Web. Cependant, la majorité des services Web consomment et exposent principalement du CSV, JSON, ou XML, des format non-RDF. Il est peu probable que tous ces services se convertissent un jour aux formats RDF existants. Ceci est d’autant plus vrai dans le contexte du Web des objets, puisque l...
متن کاملILOG : vingt ans dans les objets, rétro et perspectives
De nombreux fronts se sont ouverts, souvent complémentaires. Front de la programmation : des objets lispiens tels que LeLisp et son inévitable MicroCeyx à Java et C#. Front de la modélisation et du raisonnement : de la première génération de systèmes centrés objets tels Kool, Smeci, FRL ou Sherpa aux règles métiers et aux modèles ontologiques tels que promus par le W3C. Front du Génie Logiciel ...
متن کاملRôle d'une base de connaissance dans SemIoTics, un système autonome contrôlant un appartement connecté
L’Internet des Objets représente une réalité de plus en plus concrète au fur et à mesure que se déploient de larges réseaux d’objets connectés. Ceux-ci ouvrent de larges perspectives d’applications, mais rencontrent des difficultés en terme d’interopérabilité, de configuration ou de passage à l’échelle. Ces problématiques peuvent être traitées par le recours aux principes du web de données liée...
متن کاملArchitecture et Outils pour la Recherche d'Evénements dans les Séquences Vidéo
RÉSUMÉ. Le problème abordé ici concerne l’indexation en ligne de données multimédia par la recherche d’extraits pertinents qui peuvent aussi être des réponses à des requêtes spécifiques. Nos travaux se focalisent sur l’analyse de séquences vidéo afin d’y détecter des événements prédéfinis. La recherche de ces événements étant contextuelle, nous proposons une architecture et des outils générique...
متن کاملVers un modèle du raisonnement dans les langages à objets
Résumé Ce papier est une proposition de modèle du raisonnement dans les langages hybrides, intégrant un langage de programmation par objets avec des règles de production. Nous proposons de différencier entre deux catégories d'objets, les objet du monde perçu et ceux du monde conçu. Le raisonnement est alors considéré comme un processus qui crée ou modifie le monde conçu à partir d'observations ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2013